KACTJBI 



(12) NACH DEM VERTRAmJBER DIE INTERNATIONALE ZUSAMMENAkJW 1 AUF DEM GEBIET DES 
PATENTWESENS (PCT) VEROFFENTLICHTE INTERNATIONALE ANMELDUNG 



(19) Weltorganisation fur geistiges Eigentum 
Internationales Btiro 

(43) Internationales Veroffentlichungsdatum 
26. Februar 2004 (26.02.2004) 




PCT 



(10) Internationale Veroffentiichungsnummer 

WO 2004/017225 Al 



(51) Internationale Patentklassifikation 7 : G06F 17/21, 

(21) Internationales Aktenzeichen: PCT/DE2003/002274 

(22) Internationales Anmeldedatum: 

7. Juli 2003 (07.07.2003) 



(25) Einreichungssprache: 

(26) Veroffentlichungssprache 



Deutsch 



^.J^eutsch 

(30) AngabenzurPrioritat/^^S^4|. 

102 31 971.5 15. Ju$2002 (15.07.2002) DE 

102 48 758.8 18. Oktober 2002 (18.10.2002) DE 



(71) Anmelder (fur alle Be stimmungsst oaten mit A usnahme von 
US): SIEMENS AKTIENGESELLS CHAFT [DE/DE]; 
Wittelsbacheiplatz 2, 80333 Munchen (DE). 



(72) Erfinder;und 

(75) Erfinder/Anmelder (nur fur US): ^fiEUER, Jorg 
y — " [DE/DE]; Fischbachauerstr. 8, 81539 Munchen (DE). 
HUTTER, Andreas [DE/DE]; Sturmiusweg 42, 81673 
/^Munchen (DE)^NIEDERMEIER, Ulrich [DE/DE]; 
Viehauserstrasse 18, 94405 Landau (DE). 

(74) Gemeinsamer Vertreter: SIEMENS AKTIENGE- 
SELLS CHAFT ; Postfach 22 16 34, 80506 Munchen 
(DE). 

(81) Bestimmungsstaaten (national): AE, AG, AL, AM, AT, 
AU, AZ, BA, BB, BG, BR, BY, BZ, CA, CH, CN, CO, CR, 
CU, CZ, DK, DM, DZ, EC, EE, ES, FI, GB, GD, GE, GH, 
GM, HR, HU, ID, IL, IN, IS, JP, KE, KG, KP, KR, KZ, LC, 
LK, LR, LS, LT, LU, LV, MA, MD, MG, MK, MN, MW, 
MX, MZ, NI, NO, NZ, OM, PG, PH, PL, PT, RO, RU, SC, 

[Fortsetzung aufder nachsten SeiteJ 



(54) Title: METHOD AND DEVICES FOR ENCODING/DECODING STRUCTURED DOCUMENTS, ESPECIALLY XML 
DOCUMENTS 

(54) Bezeichnung: VERFAHREN UND VORRICHTUNGEN ZUM KODIEREN/DEKODIEREN VON STRUKTURIERTEN 
DOKUMENTEN, INSBESONDERE VON XML-DOKUMENTEN 



IT) 



Encoder \ 



Schema fur 
Schemas 



XMLS 



XML Schema 
Dokument 




XML 



XML 
Dokument 




Ubertagung 



BS1 

jLSchntt_ 
2.*Schritt 



Ubertagung 



BS2 



Schema fur 
Schemas 




| Decoder 



XMLS 



XML Schema 
Dokument 



BiM-D XML 




XML 
Dokument 



1. SCHEMA FOR SCHEMAS 

2. XML SCHEMA DOCUMENT 

3. XML DOCUMENT 

4. TRANSMISSION 



(57) Abstract: The invention essentially relates to an encoding method for producing a bit stream or part of a bit stream from a 
schema according to a metaschema. According to the invention at least one of the following optimisation processes is carried out: 
separation of anonymous types from element declarations and attribute declarations, and encoding as own type, the type definition 
fS| thereof as top level element being instantiated in the schema definition; normalisation of syntax trees on the encoder side; replacement 
of the character strings of type names; and transmission of information for the inheritance tree. The decoding takes said optimisation 



processes into account and conversely produces a schema from the bit stream. 
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Veroflentlicht: 

— mit internal ionalem Recherchenbericht 

Zur Erkldrung der Zweibuchstaben- Codes und der anderen Ab- 
kurzungen wird auf die Erkldrungen ("Guidance Notes on Co- 
des and Abbreviations'*) am Anfang jeder regularen Ausgabe der 
PCT -Gazette verwiesen. 



(57) Zusammenfassung: Die Erfindung besteht im wesentlichen darin, mit einem Encodierverfahren aus einem Schema in Abhan- 
gigkeit eines Metaschemas einen Bitstrom oder einen Teil eines Bitstromes zu erzeugen, wobei eine oder mehrere der folgenden 
Optimierungen durchgefuhrt werden: - Abspaltung von anonymous Types aus Elementdeklarationen und Attributdeklarationen, und 
Codierung als eigener Typ, dessen Typdefinition als Top-Level Element in der Schema Definition instantiiert ist, - Normalisierung 
der Syntax Trees auf Encoderseite,- Ersetzung der Zeichenketten von Typnamen - Ubertragung von Informationen fur den Verer- 
bungsbaum.Die Dekodierung berucksichtigt diese Optimierungen und erzeugt umgekehrt aus dem Bitstrom ein Schema. 
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Beschreibung 

VERFAHREN UND VORRI CHTUNGEN ZUM KODIEREN/DEKODIEREN VON STRUKTURIERTEN 
DOKUMENTEN, INSBESONDERE VON XML- DOKUMENT EN 

.5 

Die Erfindung betrif ft Verfahren bzw. Vorrichtungen zum Enco- 
dieren von strukturierten Dokumenten, insbesondere XML- 
Dokumenten, bei denen aus einem strukturierten Dokument in 
Abhangigkeit eines Schemas ein Bitstrom erzeugt wird und ein 
10 Verfahren bzw. eine Vorrichtung zum Decodieren, bei denen aus 
einem Bitstrom in Abhangigkeit eines Schemas ein strukturier- 
tes Dokument erzeugt wird. 

Im Rahmen der Arbeit am MPEG-7 Standard wurde ein Verfahren 

15 zur binaren Codierung von XML Daten entwickelt, das im fol- 
genden BiM-Verf ahren genannt wird und beispielsweise aus der 
Veroffentli chung ISO/IEC FDIS 15938-1 : 2001 (E) , "Information 
Technology - Multimedia Content Description Interface - Part 
1: Systems" bekannt ist. Dieses Verfahren verwendet XML Sche- 

20 ma Def initionen, die beim Encoder und Decoder vorliegen, bei- 
spielsweise das MPEG-7 Schema, urn die Codes fur die einzelnen 
Datenelemente der XML Beschreibung zu generieren. Dieses Ver- 
fahren setzt voraus, dass dem Encoder und dem Decoder zumin- 
dest teilweise die selben Schemadef initionen vorliegen. Dies 

25 kann beispielsweise gewShrleistet werden, indem ein standar- 
disiertes XML Schema im Decoder fest eingebaut wird. AuSerdem 
besteht die Moglichkeit das Schema separat oder zusatzlich 
zum eigentlichen Dokument dem Decoder zu iibermitteln. Die 
Ubertragung des Schemas vom Encoder zum Decoder kann in tex- 

3 0 tueller Form durchgeftihrt werden, wobei eine Standard Text- 
kompression, wie z.B. ZIP, angewendet werden kann. 

Die der Erfindung zu Grunde liegende Aufgabe besteht nun dar- 
in, Verfahren bzw. Vorrichtungen der art anzugeben, dass die 
35 Ubertragung des Schemas besonders effizient erfolgt und dass 
die ubertragene Datenmenge und die Rechenlei stung am Decoder, 
die ftir die Erzeugung der Codetabellen aus dem Schema notig 
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ist, reduziert wird. Aufierdem soil die Konsistenz eines nicht 
vollstandig ubertragenen Schemas sichergestellt werden. 

Diese Aufgabe wird hinsichtlich des Encodierverf ahrens durch 
die Merkmale des Patentanspruchs 1, hinsichtlich des Deco- 
dierverf ahrens durch die Merkmale des Patentanspruchs 7, hin- 
sichtlich der Encodiervorrichtung durch die Merkmale des Pa- 
tentanspruchs 14 und hinsichtlich der Decodiervorrichtung 
durch die Merkmale des Patentanspruchs 15 erf indungsgemafi ge- 
16st. 

Die weiteren Anspruche betreffen vorteilhafte Ausgestaltungen 
der erf indungsgemaSen Verfahren bzw. Vorrichtungen . 

Die Erfindung besteht im wesentlichen darin, mit einem Enco- 
dierverf ahren aus einem Schema in Abhangigkeit eines Meta- 
schemas einen Bitstrom oder einen Teil eines Bitstromes zu 
erzeugen, wobei eine oder mehrere der folgenden Optimierungen 
durchgeftihrt werden: 

- Abspaltung von anonymous Types aus Elementdeklarationen und 
Attributdeklarationen, und Codierung als eigener Typ, dessen 
Typdef inition als Top-Level Element in der Schema Definition 
instantiiert ist, 

- Normalisierung der Syntax Trees auf Encoderseite, 

- Ersetzung der Zeichenketten von Typnamen 

- Ubertragung von Inf ormationen far den Vererbungsbaum. 
Die Dekodierung berucksichtigt diese Optimierungen und er- 
zeugt umgekehrt aus dem Bitstrom ein Schema. 

Die Erfindung wird nachfolgend anhand von in den Zeichnungen 
dargestellten Aus fuhrungsbei spiel en erlautert. Dabei zeigt 

Figur 1 eine Prinzipdarstellung zu Erlauterung der erfin- 
dungsgemaEen Encodierung/Decodierung/ 

Figur 2 eine Darstellung zur Erlauterung der Details einer 
bevorzugten Aus fuhrungs form der Erfindung, 



WO 2004/017225 




CT/DE2003/002274 



3 

Figur 3 eine Darstellung zur Erlauterung der Details einer 
weiteren bevorzugten Ausf uhrungsf orm der Erfindung 
und 

5 

Figur 4 eine Prinzipdarstellung einer bevorzugten Ausf uh- 
rungsf orm eines erf indungsgemaSen Decoders. 

Da XML Schemas ihrerseits XML Dokumente sind, denen eine 
standardisierte Syntaxdef inition zugrunde liegt, namlich ein 
sogenanntes "Schema for Schemas" (W3C Spezif ikation) , das 
quasi ein Metaschema darstellt, kann ein Schema ebenfalls mit 
dem oben genannten BiM-Verf ahren codiert und iibertragen wer- 
den. 

In Figur 1 ist eine Anordnung gezeigt, bei der, in einem 
ersten Schritt, mit einem BiM-Encodierverf ahren BiM-E aus 
einem XML-Schema XMLS in Abhangigkeit eines Metaschemas SS 
einen Teil eines Bitstromes oder einen Bitstrom BS1 erzeugt 
wird und bei der, in einem zweiten Schritt, mit dem selben 
BiM-Encodierverf ahren BiM-E aus einem XML-Dokument XML in Ab- 
hangigkeit des Schemas XMLS ein weiterer Teil des Bitstromes 
oder ein Bitstrom BS2 erzeugt wird sowie in umgekehrter Rich- 
tung mit einem BiM-Decodierverf ahren BiM-D aus den beiden 
Teile des Bitstrom<es oder aus den Bitstromen BS1 und BS 2 ein 
XML Schema und das XML-Dokument wiedergewonnen werden. 

In einer ersten bevorzugten Ausgestaltung der Erf indung wird 
eine Abspaltung von sogenannten ^anonymous Types * aus der E- 
30 lement- bzw. Attributdeklaration vorgenommen. 

Die Ubertragung eines XML Dokuments erfolgt beim BiM- 
Verf ahren "depth first", der Vorgang der Schema Kompilierung 
am Decoder verlangt aber einen Aufbau "breadth first", wobei 
35 die diese Ausdrucke bspw. auf der Internet seite 

http://www.generation5.org/simple_search.shtml naher erlau- 
tert sind. Bei Gruppen wie Sequence oder Choice kann dies 



V 
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durch einen kleinen Zwischenspeicher auf Decoderseite ausge- 
glichen werden, aber bei den "anonymous Types' 7 , die den Typ 
eines einzelnen Elements oder Attributs definieren konnen 
rechtfertigt der Aufwand eine Umstrukturierung auf Encoder- 
5 seite: die anonymous Type Def initionen, im nachf olgenden Bei- 
spiel mit ATO bezeichnet, werden aus der Elementdeklaration 
des Elements " CurriculumVitae" herausgelost und erhalten ei- 
nen Namen und/oder Code, der zur Ref erenzierung bei dem ent- 
sprechenden Element verwendet wird. 
10 Vorteilhaf terweise wird hierdurch die Tiefe der Hierarchie 
der tibertragenen Typen reduziert, wodurch die Kompilierung 
des Schemas auf der Decoderseite vereinfacht wird. 

Beispiel : 

15 

Schema vor der Umstrukturierung 



20 



<complexType name= " Per sonDescr iptor " > 
<element name=" CurriculumVitae" > 
<complexType> 

<element name="name" type="string" /> 
<element name= "birthday" type="date" /> 



25 



< / c omp 1 exTyp e > 
</element> 

<element name="prof ession" type="prof Tp" /> 
< / c omp 1 exTyp e > 



Schema nach der Umstrukturierung 



- <complexType name="PersonDescr iptor "> 

<element name=" CurriculumVitae" type="AT0"/> 
<element name= "profession" type="prof Tp" /> 
< / compl exType> 
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<complexType name="AT0"> 

<element name= /, name // type= " string" /> 
<element name= "birthday" type="date" /> 



5 



< / complexType> 



In einer zweiten bevorzugten Ausgestaltung der Erfindung wird 
die Normalisierung der Syntax Trees, wie sie in BiM spezifi- 
10 ziert ist, auf der Encoderseite durchgefuhrt . 

Im BiM-Verf ahren werden sogenannte „Finite State Automatons u 
die zur Dekodierung des Bitstroms verwendet werden aus Syntax 
Trees erzeugt, welche die Struktur des XML Schemas abbilden. 
15 Urn die Codieref f izienz zu steigern entsprechen diese Syntax 
Trees nicht 1:1 den textuellen XML Def initionen, sondern es 
werden Normalisierungen vorgenommen • Drei verschiedene Falle 
konnen hierbei auftreten: 

20 1. Vereinfachung einer Gruppe, die nur ein Element enthalt: 
Die Gruppe wird aufgelost, und das enthaltene Element wird 
auf der Ebene der aufgelosten Gruppe in das Content Modell 
einsortiert, wobei die Attribute minOccurs und maxOccurs des 
Elements durch das Produkt der entsprechenden Attribute der 

25 aufgelosten Gruppe und des Elements vor der Umgruppierung er- 
setzt wird. 

2. Vereinfachung einer choice-Gruppe, die ein Element mit dem 
Attributwert minOccurs=0 enthalt: 
30 Das Attribut „minOccurs" der choice Gruppe wird unabhangig 

vom vorhergehenden Wert auf 0 gesetzt, das Element, das einen 
Attributwert minOccurs=0 hatte, wird einen Attributwert mi- 
nOccurs=l zugewiesen. 



35 
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3. Vereinf achung von verschachtelten choice-Gruppen: 
EnthS.lt eine choice Gruppe eine andere choice Gruppe, die die 
Attributwerte minOccurs==maxOccurs=l enthalt, so wird diese 
choice Gruppe aufgelost, und der Inhalt direkt der daruber- 
5 liegenden choice Gruppe eingegliedert . 

Diese Vereinf achungen sollten bei der Ubertragung des Schemas 
schon am Encoder vorgenommen werden, da die Syntax Tree 
Trans forma tionen die Vergabe der normativen Codes beein- 
10 flusst, und die Kompilierung des Schemas auf Decoderseite 

vereinfacht wird, wenn das Content -Model 1 direkt ubernommen 
werden kann. 

Die Vorteile liegen hier darin, dass hierdurch ebenfalls der 
15 Decoder entlastet wird und das Content -Mode 11 direkt wie es 

bei der Typdecodierung entsteht dem Schema -Compiler zugefuhrt 
werden kann. 

20 In einer dritten bevorzugten Ausgestaltung der Erfindung 

wird, wie in Figur 2 gezeigt, eine Ersetzung der Zeichenket- 
ten von Typnamen durchgefuhrt . 

Im Attribut w name" und "base" einer Typdef inition, sowie beim 
Attribut "type" einer Element- Oder Attributdeklaration tre- 
ten hSufig im Schema die selben Typnamen auf, die als Zei- 
chenkette mehrfach ubertragen werden wurden. Bei der Codie- 
rung von Typnamen ist es deshalb vorteilhaft anstatt des Na- 
mens nur eine Nummer zu codieren, und separat dazu eine Ta- 
belle, welche die Nummern wieder zu den urspriinglichen Namen 
in Beziehung setzt. Als Nummer bietet sich die Typnummer an, 
die der unten noch naher erlauterte Vererbungsbaum des Ur- 
Typs alien complexTypes zuordnet. 

35 Entsprechendes gilt auch fur das Attribut „name" von globalen 
Element-Deklarationen und deren Referenzen in „ref u - 
Attributen und fiir den Namen von Ersetzungsgruppen im Attri- 
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but "substitutionGroup" . In diesen Fallen kann beispielsweise 
der Schemaverzweigungscode SBC der globalen Elemente verwen- 
det werden. 

5 Hiermit kann Datenvolumen eingespart werden, da eine wieder- 
holte Ref erenzierung auf den selben Typnamen kompakter darge- 
stellt werden kann und die Typzuordnungstabelle mit einem 
Standardkompressor besser komprimiert werden kann, da die 
Typnamen nicht uber den Bitstrom verteilt auftreten, sondern 
10 kompakt in einem zusammenhangenden Bereich im Bitstrom. 

In einer vorteilhaf ten Ausfuhrungsf orm wird eine Liste umfas- 
send die Typ- oder Elementnamen oder Namen von Erstetzungs- 
gruppen codiert. Statt Nummern den Namen explizit zuzuordnen, 
15 wird in dieser Ausfuhrungsf orm die Position eines Namen in 
der Liste als Nummer verwendet. Dies ist vorteilhaf t, da in 
der Liste keine Nummern mehr codiert werden mussen und somit 
eine effizientere Ubertragung gewahrleistet ist. 

20 In einer vierten bevorzugten Ausgestaltung der Erfindung er- 
folgt eine Ubertragung von Inf ormationen fur den Vererbungs- 
baum. 

Jede Typdef inition enthalt im sogenannten Attribut "base", 
25 falls es vorhanden ist, die Information von welchem Typ er 
vererbt worden ist. Wenn alle diese Inf ormationen fur ein 
Schema gesammelt werden, ergibt sich eine Baumstruktur , der 
sogenannte Vererbungsbaum. Der Vererbungsbaum wird beim BiM- 
Codierungsverfahren verwendet, um im Falle einer Typumandlung 
30 (type-cast) den neuen Typ des Elements zu ubermitteln. Dabei 
ist der Code der alien vom Basistyp vererbten Typen zugeord- 
net wird, also der sogenannte Type Code, sowie die Lange die- 
ses Codes fur eine korrekte Dekodierung entscheidend. Die 
Lange ergibt sich aus der Gesamtzahl aller Typen im Verer- 
35 bungsbaum unter dem Basistyp. Wenn das Schema vollstandig 
ubertragen wurde lassen sich sowohl die Codes als auch die 
Codelange auf der Decoderseite eindeutig ermitteln. Wenn aber 
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das Schema auf der Decoderseite nicht vollstandig ist, muss 
noch Zusatzinformation ubertragen werden, um bereits ubertra- 
genen Typen Type Codes zuzuweisen. 

5 Jeder iibertragene Typ hat im Namensfeld die Nummer des Type- 
code bezogen auf den Urtyp. Damit lasst sich der Typecode der 
abgeleiteten Typen durch einfache Dif f erenzbildung ermitteln. 
Es fehlt noch die Information aber die Machtigkeit des durch 
den tibertragenen Typen definierten Unterbaums, und damit die 
10 Lange der Typecodes der von diesem tibertragenen Typen abge- 
leiteten Typen. Diese Lange lasst sich mit wenigen Bits in 
einem variablen Langencode ubertragen. 

In Figur 3 ist beispielhaft ein Vererbungsbaum eines Schemas 
15 mit dem Typ A, von dem weitere Typen abgeleited sind, darge- 
stellt. Dieser Typ bekommt bezuglich des Urtyps "anyType" 
beispielsweise den Typecode 134. Von Typ A sind die Typen AA, 
AB und AC abgeleitet, deren Typecodes bezuglich des Urtyps 
angegeben sind. Um den Typecode bezuglich des Basistyps A zu 
20 ermitteln, genugt es vom Typecode des gewunschten Typs den 
Typecode des Basistyps und eins zu subtrahieren : 

TC Type = TC Type bzgl. Urtyp - Basistyp bzgl. Urtyp *"1 

25 Die fehlende Information tiber die Lange des Typecodes lafit 
sich am besten in der Ref erenztabelle als zusatzliche Zahl 
integrieren. 

Um die Information in der Typzuordnungstabelle mit einem 
30 Standardkompressor komprimieren zu konnen empfiehlt es sich, 
sie auf ganze Bytes ausgerichtet abzulegen (bytealigned) . Die 
erste Zahl ist eine vluimsbfS Zahl, die die Zahl der Zeilen 
in der Tabelle codiert, dann folgt eine vluimsbf5 Zahl, die 
die Nummer an Bits fur den Typecode codiert, und eine weitere 
35 vluimsbfS Zahl, die den Typecode bzgl. des Urtyps selbst dar- 
stellt. Es folgen Fullbits oder Stuffing Bits um die Ausrich- 
tung auf Bytegrenzen zu erreichen. 
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Format der Typzuordnungstabelle 


Vuimsbf 5 


Vuimsbf 5 


Bits ! 


Zeichen- 
kette 


Zahl der 
Zeilen 








Lange Type- 
code 1 


Typecode 
1 


0-7 

Fiill- 

bits 


Name Typ 
1 


Lange Type- 
code 2 


Typecode 
2 


0-7 

Fiill- 

bits 


Name Typ 
2 


• • • 






• • • 



5 Die Ubertragung einer Typzuordnungstabelle ermoglicht es, die 
in einem kodierten Dokument evtl . vorhandenen Typenodes kor- 
rekt zu decodieren, auch wenn das zugrundeliegende Schema 
nicht Oder noch nicht vollstandig ubertragen und/oder deco- 
diert wurde. 

10 

Entsprechend sind mit globalen Elementen der globale SBC und 
bei Elementen, die zu einer Ersetzungsgruppe gehoren, der Er- 
setzungscode zu ubermitteln, wobei vorab fur alle globalen 
Elemente einmal die globale SBC-Lange und mit dem Kopfelement 
15 der Ersetzungsgruppe die Lange des jeweiligen Ersetzungscodes 
ubermittelt werden. 

Es ist jede Kombination der in den einzelnen Ausgestaltungen 
dargestellten Merkmale bei der Encodierung moglich und kann 
2 0 in entsprechender Weise auch bei der Decodierung Eingang fin- 
den. 

Das BiM-Verf ahren erfordert es, dass das XML-Schema in ein 
Format kompiliert wird, das die Bestimmung der Lange der Co- 
25 deworte und die Auswahl der Datenelemente durch die Werte der 
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Codes gestattet. Daftir gibt es mehrere Moglichkeiten. Im 
MPEG-7 Standard (ISO/IEC 15938-1:2001 Parti: Systems bzw. 
ISO/IEC 15938-6:2001 Part6 : Referenz software) ist fur die De- 
codierung der Nutzlast bzw. Payload ein Modell vorgeschlagen, 
das Endliche Zustandsautomaten (Finite State Automatons) ver- 
wendet, und fur die Decodierung eines Context Pfades Codeta- 
bellen, die aus dem Schema generiert werden. 

In einer in Figur 4 dargestellten bevorzugten Ausgestaltung 
des erfindungsgemaSen Decoders wird der Decodiervorgang mit 
einem Bytecodemodell beschrieben, wobei die Schemastruktur in 
ein System aus vernetzten Zustanden ubersetzt wird, die von 
einem Bytecodeinterpreter BCI abgearbeitet werden, wobei ein 
vom Encoder empfangener Bitstrom BS die Information tiber den 
auszuwahlenden Folgezustand enthalt. Im Unterschied zu dem 
Modell, das im MPEG-7 Standard vorgeschlagen wird, ist das 
Bytecodemodell so angelegt, dass sowohl ein Bitstrom, der ei- 
ne Payload reprasentiert , als auch ein Bitstrom der einen 
Context Pfad darstellt decodiert werden kann. Es ist deshalb 
nicht erforderlich dieselbe Information, die im Schema ent- 
halten ist zweimal fur die verschiedenen Codierverf ahren am 
Decoder vorzuhalten. Der Interpreter BCI liest die Informati- 
on aus dem Eingangsbitstrom, die ein XML Dokument oder ein 
XML Schema im BiM Format codiert. Diese Information erlaubt 
die Auswahl unter den Folgezustanden des aktuellen Zustandes, 
der im Bytecode abgelegt ist. Die Folgezustande sind inner- 
halb des Bytecodes als Pointer P fest angelegt. Je nach Kon- 
figuration wird ein Pfad, eine Payload oder ein Bytecode aus- 
gegeben . 

Die Decodierung eines Schemas laSt sich mit den oben vorge- 
schlagenen Modif ikationen ebenfalls ef fizient im Bytecodemo- 
dell realisieren. In diesem Fall wird keine Payload und kein 
Pfad ausgegeben, sondern direkt Bytecode erzeugt, der vom 
Bytecodeinterpreter fur die Decodierung der entsprechenden 
Typen verwendet werden kann. 
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Der Bytecode setzt sich aus Strukturelementen bzw. den Zu- 
standen zusammen. Die Zustande sind von verschiedenem Typ, 
der mit dem Headerbitf eld des Zustandes identif iziert wird- 
Die Zustande enthalten abhangig vom Typ verschiedene Informa- 
tionsf elder, die vom Bytecodeinterpreter gelesen, und je nach 
Konf iguration (Payload/ Context Pfad) und aktuellem Zustand 
ausgewertet werden. 

Fur die Arten von Zustanden, welche die Schemainf ormation 
reprasentieren sind mehrere Varianten denkbar. Wesentlich 
ist, dass sich durch die Zustande des Bytecodemodells alle 
Syntaxelemente eines XML Schemas nachbilden lassen, und dass 
die gesamte Information, die zur effizienten Decodierung der 
beiden im MPEG-7 Standard definierten Algorithmen (Context 
Pfad/Payload) notwendig ist, in den Zustanden zur Verfugung 
gestellt wird, 

Ein moglicher Aufbau des Bytecodes wird im folgenden kurz 
dargestellt . 

Arten von Zustanden, Ubersicht: 
1. Kopf zustand eines complexTyps 

Der Kopfzustand eines Typs bildet den Einsprungspunkt bei der 
Decodierung eines complexType. Er enthalt den Namen des Typs 
(falls es sich nicht \am einen anonymen Typ handelt) sowie In- 
formation zu Vererbung des Typs (Zeiger auf Basiszustand) so- 
wie Polymorphismus . 

Spezifisch fur die Payloadcodierung ist ein Zeiger auf eine 
Liste der Attribute des Typs. Spezifisch fur die Context Pfad 
Codierung sind Felder mit der Zahl der Kindelemente fur die 
Context - und Operand Tree Branch Code Tabellen. 
Das letzte Inf ormationsf eld ist ein Zeiger auf den Folgezu- 
stand, d.h. der erste Zustand, der den Inhalt des complexTy- 
pes reprasentiert (beispielsweise ein Element zustand oder ein 
Auswahl zustand) . 
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Graphische Darstellung eines Kopf zustands : 

Hea derbitf eld 

P ointer auf String mit Name 
P ointer auf Kopfzust. Basistyp 
Pointer auf Vererbungsbaum 
Zahl der Kinder Context TBC 
Z ahl der Kinder Operand TBC 
Pointer auf Folgezustand 



2. Auswahlzustand 

Ein Auswahlzustand bildet eine choice Gruppe des XML Schemas 
nach. Der Auswahlzustand enthalt im wesentlichen eine Poin- 
terliste mit moglichen Folgezustanden. Urn den tatsachlich 
ausgewahlten Zustand zu bestimmen muS bei der Decodierung ei- 
ner Payload der Bitstrom gelesen werden. Vom Auswahlzustand 
gibt es zwei Varianten: einen Startzustand, der in die ver- 
schiedenen m6glichen Folgezustande verzweigt, sowie einen 
Endzustand, der die Auswahl wieder zusammenf aSt . 

3 . Elementzustand 

Der Elementzustand bildet eine Elementdeklaration in einem 
15 complexType eines Schemas nach. Er enthalt einen Pointer auf 
eine Zeichenkette mit dem Namen des Elements, sowie einen 
Pointer auf den Kopf zustand des Typs . Ferner ist evtl. Infor- 
mation uber die Lange des Position Codes (nur fur Pfad- Deco- 
dierungX und fur Substitution Groups vorhanden. 

20 

4, Attributzustand 

Ein Attributzustand bildet eine Attributdeklaration eines 
Schemas nach. Enthalten sind ein Pointer auf den Namen des 
Attributs, sowie ein Pointer auf den Kopf zustand des simple- 
25 Type des Attributs . 
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5 . Occurrencezustand 

Ein Occurrencezustand bildet die minOccurs und maxOccurs Att- 
ribute nach, die bei einem XML Schema z.B. bei einem Element 
oder einer Gruppe (choice, sequence, ...) auftreten kSnnen. 
Er enthalt einen Zeiger auf den Folgezustand, falls eine wei- 
tere Instanz des Elements oder der Gruppe auftritt, sowie ei- 
nen Zeiger auf den Folgezustand, falls die letzte Instanz der 
Gruppe codiert wurde. Da bei XML Schemas die Moglichkeit be- 
steht, daS ein Element sich selbst enthalt (in der complexTy- 
pe Definition des Elements, oder in einer noch tieferen Ver- 
schachtelung tritt das Element selbst wieder auf) kann auch 
ein Occurrencezustand gleichzeitig mehr als einmal aktiv 
sein. Deshalb ist ein Zeiger auf einen Stapel innerhalb des 
Occurrencezustands erf orderlich, die den aktuellen Zustand 
jeder aktiven Instanz des Occurrencezustands sichert.. 

6. Endzustand eines Typs 

Der Endzustand eines Typs enthalt eine Zeigerliste mit alien 
Attributen dieses Typs. Sie ist bei der Decodierung eines 
Pfades erf orderlich, da in den Tree Branch Code Tabellen alle 
Attribute am Ende der Tabelle einsortiert werden. Beim errei- 
chen eines Endzustands verzweigt der Bytecodeinterpreter hie- 
rarchisch in das Element, das diesen Typ aufgerufen hat. Die 
entsprechende Information tiber das aufrufende Element muS im 
Arbeitsspeicher des Bytecodeinterpreters abgelegt sein. 

7. Kopf zustand eines simpleTypes 

Dieser Zustand steuert die Decodierung von Inhalt, d.h. er 
enthalt einen Pointer auf einen Codec, der spezifisch Daten 
des betreffenden Typs aus dem Bitstrom lesen und decodieren 
kann. Der Typ des Codecs ist in einem Inf ormationsf eld spezi- 
f iziert . 

Die wesentlichen Vorteile des Bytecodemodells im Vergleich 
zum Stand der MPEG-7 Ref erenzsof tware sind: 
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1. Die Schemainformation wird fur beide Codierverf ahren (Con- 
text Pfad / Payload) nur einmal am Decoder reprasentiert . Der 
grofite Teil der Information in den Bytecodezustanden sind fur 
beide Verf ahren relevant. Ein kleinerer Teil ist spezifisch 

5 ftir jeweils eines der beiden Verf ahren. Deshalb ist die Dar- 
stellung der Schemainformation am Decoder sehr kompakt. 

2 . Das Bytecodemodell stellt ein wohldef iniertes Datenf ormat 
fur Schemainformation zur Verfiigung, das sich z.B. auch zum 

10 Vorkompilieren und Abspeichern eignet (anstatt dem XML-Schema 
als Text) . 

3. Die Ausfuhrung des Bytecodes durch einen Standardprozessor 
kann sehr schnell erfolgen, da das Bytecodemodell den Deco- 

15 diervorgang sehr gut vorbereitet . Alle Information ist direkt 
im Zustand uber Zeiger verfugbar, und muS nicht (wie in 
ISO/IEC 1593 8-6, Part 6: Ref erenzsof tware) zum Teil erst in 
Listen gesucht werden. 

20 Ein entsprechender Encoder kann auf die selbe Art und Weise 

realisiert werden, wobei er in der Weise invers ist, als dass 
die Zustande von der textuellen Representation des struktu- 
rierten Dokuments gesteuert werden und die Zustandsiibergange 
die binare Representation generieren. 

25 
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Patentanspruche 

1. Verfahren zum Encodieren von strukturierten Dokumenten, 
insbesondere XML -Dokumenten, 

bei dem, in einem ersten Schritt, die Struktur des Schemas 
(XMLS) normiert wird, wobei Gruppen mit Elementen und/oder 
Attributen vereinfacht werden, 

bei dem mit einem Encodierverf ahren (BiM-E) aus dem normier- 
ten Schema in Abh&ngigkeit eines Metaschemas (SS) ein Teil 
eines Bitstromes oder ein Bitstrom (BSD erzeugt wird. 

2. Verfahren nach Anspruch 1, 

bei dem, in einem weiteren Schritt, mit dem selben Encodier- 
15 verfahren (BiM-E) aus einem Dokument (XML) in Abhangigkeit 
des Schema (XMLS) ein weiterer Teil des Bitstromes oder ein 
weiterer Bitstrom (BS2) erzeugt wird. 

3 . Verfahren nach Anspruch 1 oder 2 , 

bei dem Elementdeklarationen und/oder Attributdeklarationen 
der Schemadef inition eines strukturierten Dokuments derart 
umstrukturiert werden, dass anonyme Typdef initionen (ATO) aus 
den Elementdeklarationen und/oder Attributdeklarationen her- 
ausgelost werden und einen Namen und/oder Code erhalten, der 
zur Ref erenzierung bei dem entsprechenden Element verwendet 
wird. 

4. Verfahren nach einem der Anspriiche 1 bis 3, 

bei dem anstatt Typnamen und/oder Elementnamen und/oder Namen 
3 0 von Ersetzungsgruppen nur Nummern sowie eine oder mehrere Ta- 
bellen mit einer Zuordnung zwischen Nummern und Typnamen 
und/oder Elementnamen und/oder Namen von Ersetzungsgruppen 
codiert werden. 

35 5. Verfahren nach einem der Ansprtiche 1 bis 4, 

bei dem eine oder mehrere Listen umfassend die Typnamen 
und/oder Elementnamen und/oder Namen von Ersetzungsgruppen 
sowie die Posit ion en der Typnamen und/oder Elementnamen 
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und/oder Namen von Ersetzungsgruppen in der Liste anstatt 
Typnamen und/oder Elementnamen und/oder Namen von Ersetzungs- 
gruppen codiert werden . 

6. Verfahren nach einem der vorhergehenden Anspriiche, 

bei dem Inf ormationen fur den Vererbungsbaum von Typen, glo- 
balen Elementen und/oder Ersetzungsgruppen codiert werden, 
wobei jeder Typ durch eine Information uber seinen Typcode 
bezogen auf den Urtyp und der Lange aller Typcodes, die sich 
auf den beschriebenen Typen beziehen, beschrieben wird 
und/oder jedes globale Element durch die Lange des SBC und 
einen SBC und/oder jedes Element in einer Ersetzungsgruppe 
durch die Lange der Ersetzungscodes und einen Ersetzungscode 
beschrieben wird. 

7. Verfahren zum Decodieren von strukturierten Dokumenten, 
insbesondere XML-Dokumenten, 

bei dem, mit einem Decodierverf ahren (BiM-D) aus einem Teil 
eines Bitstromes oder aus einem Bitstrom (BS1) in Abhangig- 
keit eines Metaschemas (SS) ein Schema (XMLS) erzeugt wird, 
bei dem im Bitstrom festgestellt wird, ob die Struktur des 
Schemas bereits normiert wurde, wobei Gruppen mit Elementen 
und/oder Attributen vereinfacht wurden, und fur diesen Fall 
keine Normierung durchgefiihrt wird und 

8. Verfahren nach Anspruch 7, 

bei dem, in einem zweiten Schritt, mit dem selben Decodier- 
verfahren (BiM-D) aus einem weiteren Teil des Bitstromes oder 
einem weiteren Bitstrom (BS2) in Abhangigkeit des Schema 
(XMLS) ein Dokument (XML) erzeugt wird. 

9 . Verfahren nach Anspruch 7 , 

bei dem, wahrend der Decodierung des Schemas (XMLS) , mit dem 
selben Decodierverf ahren (BiM-D) aus einem weiteren Teil des 
Bitstromes oder einen weiteren Bitstrom (BS2) in Abhangigkeit 
des bereits decodierten Teils des Schemas (XMLS) ein Dokument 
(XML) erzeugt wird. 
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10. Verfahren nach einem der Anspruche 7 bis 9, 

bei dem Elementdeklarationen und/oder Attributdeklarationen 
eines strukturierten Dokuments derart umstrukturiert werden ; 
dass anonyitie Typen (ATO ) , denen zur Ubertragung ein Name 
und/oder ein Code zugewiesen wurde, in die jeweilige Element- 
deklaration oder Attributdeklaration eingefugt werden, von 
der der jeweilige anonyme Typ referenziert wird. 

11. Verfahren nach einem der Anspruche 7 bis 10, 

bei dem aus dem Bitstrom Typnamen und/oder Elementnamen 
und/oder Namen von Ersetzungsgruppen uber Nummern sowie einer 
oder mehrer Tabellen mit einer Zuordnung zwischen Nummern und 
Typnamen und/oder Elementnamen und/oder Namen von Ersetzungs- 
gruppen decodiert werden, 

12. Verfahren nach einem der Anspruche 7 bis 11, 

bei dem aus dem Bitstrom Typnamen und/oder Elementnamen 
und/oder Namen von Ersetzungsgruppen liber eine oder mehrere 
Listen umfassend die Typnamen und/oder Elementnamen und/oder 
Namen von Ersetzungsgruppen sowie die Positionen der Typnamen 
und/oder Elementnamen und/oder Namen von Ersetzungsgruppen in 
der Liste decodiert werden. 

13. Verfahren nach einem der Anspruche 7 bis 12, 

bei dem zunachst aus dem Bitstrom Inf ormationen fur einen 
Vererbungsbaum von Typen und/oder globalen Element en und/oder 
Ersetzungsgruppen decodiert werden, wobei jeder Typ durch ei- 
ne Information iiber seinen Typcode bezogen auf den Urtyp und 
der Lange aller Typcodes, die sich auf den beschriebenen Ty- 
pen beziehen, beschrieben wird 

und/oder jedes globale Element durch die Lange des SBC und 
einen SBC und/oder jedes Element in einer Ersetzungsgruppe 
durch die LSnge der Ersetzungscodes und einen Ersetzungscode 
beschrieben wird. 
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14. Vorrichtung zum Encodieren von strukturierten Dokumenten, 
insbesondere XML -Dokumenten, 

bei der eine Encodiereinheit vorhanden ist, 

die, in einem ersten Schritt, die Struktur des Schemas (XMLS) 
normieren, wobei Gruppen mit Elementen und/oder Attributen 
vereinfacht werden, 

die aus dem normierten Schema in Abhangigkeit eines Metasche- 
mas (SS) einen Teil eines Bitstromes oder einen Bitstrom 
(BSD erzeugen. 

15. Vorrichtung zum. Decodieren von strukturierten Dokumenten, 
insbesondere XML -Dokumenten, 

bei der eine Decodiereinheit vorhanden ist, 

die, aus einem Teil eines Bitstromes oder aus einem Bitstrom 
(BSD in Abhangigkeit eines Metaschemas (SS) ein Schema er- 
zeugt , 

bei der im Bitstrom festgestellt wird, ob die Struktur des 
Schemas (XMLS) bereits normiert wurden, wobei Gruppen mit 
Elementen und/oder Attributen vereinfacht wurden, und fur 
diesen Fall keine Normierung durchgefuhrt wird. 

16. Vorrichtung nach Anspruch 14, 

bei der die Encodiereinheit einen konf igurierbaren Bytecode- 
interpreter aufweist, der Inf ormationen in einem Bytecode in- 
terpretiert und der, abhangig von der Konf igurierung, aus dem 
strukturierten Dokument basierend auf einem Bytecode einen 
Code erzeugt, der einen Pfad oder eine Nutzlast reprasen- 
tiert . 

17. Vorrichtung nach Anspruch 15, 

bei der die Decodiereinheit einen konf igurierbaren Bytecode- 
interpreter aufweist, der durch Inf ormationen aus dem Bit- 
strom konfigurierbar ist und der, abhangig von der Konf igu- 
rierung, aus dem Bitstrom basierend auf einem Bytecode einen 
Pfad, eine Nutzlast oder einen Bytecode erzeugt. 
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